获取数据
获取数据
在数据集中,一般:
- 一行数据称为一个样本
- 一列数据称为一个特征
- 有些数据有目标值(标签值)
数据类型的构成
- 类型1:特征值 + 目标值
- 类型2:只有特征值,没有目标值
数据分割
- 常见划分方式:
- 训练集:用于训练,构建模型
- 验证集:用于调参、模型选择(也常用交叉验证替代)
- 测试集:只用于最终评估,尽量不参与任何调参决策
- 划分比例:
- 训练集:70% / 80% / 75%(常见经验值)
- 测试集:30% / 20% / 25%
常见坑
- 数据泄漏:把未来信息、测试集统计量或目标值信息“漏”进了特征或预处理流程
- 分布不一致:训练集与测试集来源差异很大,导致线上效果下降
- 标签定义不清:同一类样本标注标准不一致,模型上限会被数据质量限制